接受高等教育对于少数族裔和新兴双语学生至关重要。但是,高等教育机构用来与准学生交流的语言通常太复杂了。具体而言,美国的许多机构发布录取申请指令远远高于典型高中毕业生的平均阅读水平,通常接近13年级或14年级。这导致学生之间不必要的障碍和获得高等教育。这项工作旨在通过简化文本来应对这一挑战。我们介绍PSAT(专业简化的录取文本),这是一个数据集,其中有112条从美国的高等教育机构中随机选择的录取说明。然后,这些文本将被专业地简化,并被各个机构招生办公室的专职员工专家进行了验证和接受。此外,PSAT带有1,883个原始简化句子对的手动对齐。结果是在与现有简化资源不同的高风险流派中评估和微调文本简化系统的首个语料库。
translated by 谷歌翻译
Computational catalysis is playing an increasingly significant role in the design of catalysts across a wide range of applications. A common task for many computational methods is the need to accurately compute the minimum binding energy - the adsorption energy - for an adsorbate and a catalyst surface of interest. Traditionally, the identification of low energy adsorbate-surface configurations relies on heuristic methods and researcher intuition. As the desire to perform high-throughput screening increases, it becomes challenging to use heuristics and intuition alone. In this paper, we demonstrate machine learning potentials can be leveraged to identify low energy adsorbate-surface configurations more accurately and efficiently. Our algorithm provides a spectrum of trade-offs between accuracy and efficiency, with one balanced option finding the lowest energy configuration, within a 0.1 eV threshold, 86.63% of the time, while achieving a 1387x speedup in computation. To standardize benchmarking, we introduce the Open Catalyst Dense dataset containing nearly 1,000 diverse surfaces and 87,045 unique configurations.
translated by 谷歌翻译
人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
TRISTRUCCUCTIONATIOPIC(TRISO)涂层颗粒燃料是强大的核燃料,并确定其可靠性对于先进的核技术的成功至关重要。然而,Triso失效概率很小,相关的计算模型很昂贵。我们使用耦合的主动学习,多尺度建模和子集模拟来估计使用几个1D和2D模型的Triso燃料的故障概率。通过多尺度建模,我们用来自两个低保真(LF)模型的信息融合,取代了昂贵的高保真(HF)模型评估。对于1D TRISO模型,我们考虑了三种多倍性建模策略:仅克里格,Kriging LF预测加克里格校正,深神经网络(DNN)LF预测加克里格校正。虽然这些多尺度建模策略的结果令人满意地比较了从两个LF模型中使用信息融合的策略,但是通常常常称为HF模型。接下来,对于2D Triso模型,我们考虑了两个多倍性建模策略:DNN LF预测加克里格校正(数据驱动)和1D Triso LF预测加克里格校正(基于物理学)。正如所预期的那样,基于物理的策略一直需要对HF模型的最少的呼叫。然而,由于DNN预测是瞬时的,数据驱动的策略具有较低的整体模拟时间,并且1D Triso模型需要不可忽略的模拟时间。
translated by 谷歌翻译
在尝试“解释”机器学习模型的预测中,研究人员提出了数百种技术,以归因于认为重要的功能的预测。虽然这些归属常常被声称持有改善人类“了解”模型的潜力,但令人惊讶地小的工作明确评估了对这种愿望的进步。在本文中,我们进行了一个众群研究,参与者与欺骗检测模型进行互动,以区分真实和假酒店评论。他们受到模拟新鲜评论模型的挑战,并以降低最初预测的类的概率的目标。成功的操纵将导致对抗性示例。在培训(但不是测试)阶段,突出显示输入跨度以传达Parience。通过我们的评估,我们观察到,对于线性袋式模型,与无解释控制相比,可以在训练期间访问特征系数的参与者能够在测试阶段中更大减少模型置信度。对于基于BERT的分类器,流行的本地解释不会提高它们在无法解释案例上降低模型信心的能力。值得注意的是,当由培训的线性模型的(全局)归属的(全局)归属给出的解释以模仿BERT模型,人们可以有效地操纵模型。
translated by 谷歌翻译
有限的角度X射线断层扫描重建是一个不良反问题一般。特别是当投影角度有限并且在光子限制条件下进行测量时,来自经典算法的重建,例如过滤的反光,可能导致由于缺失的问题而获取伪影。为了获得令人满意的重建结果,通常在重建算法中结合在重建算法中的令人满意的重建结果,例如总变化最小化和非局部图像相似度。在这项工作中,我们介绍了深度神经网络,以确定并应用重建过程的先前分配。我们的神经网络直接从合成训练样本中学习。因此,神经网络获得了对我们对重建感兴趣的对象类的特定的先前分配。特别是,我们使用了具有3D卷积层和3D注意图层的深生成的模型,这些层在来自DubBed电路库的3D合成集成电路(IC)数据上培训。我们证明,当投影角度和光子预算受到限制时,来自我们深度生成模型的前沿可以显着提高合成数据的IC重建质量,而与最大似然估计相比。使用电路库的合成IC数据训练深度生成模型说明了从机器学习之前学到的学习功能。我们预计,如果使用实验数据再现过程,机器学习的优势将持续存在。机器学习在有限角X射线断层扫描的优点可以进一步能够在低光子纳米级成像中实现应用。
translated by 谷歌翻译
我们来看看如何机器学习是获得独立的媒体集合中的项目的性质技术可用于自动嵌入故事写成这样的集合。要做到这一点,我们使用抽取歌曲的节奏,使音乐播放列表遵循叙事弧模型。我们的工作规定了一个开源的工具,使用预训练神经网络模型,以提取一组原始音频文件的全球节奏和应用这些措施,创造一个叙事的播放清单。此工具可在https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
translated by 谷歌翻译
对不确定度和鲁棒性的高质量估计对于众多现实世界的应用来说至关重要,特别是对于深入学习,这是利用许多部署的ML系统。因此,比较改善这些估计的技术的能力对于研究和实践相似非常重要。然而,由于一系列原因,通常缺乏方法的竞争比较,包括:计算广泛调整的可用性,加入足够多的基线,以及用于再现性的具体文件。在本文中,我们介绍了不确定性的基线:在各种任务中的标准和最先进的深度学习方法的高质量实现。从本撰写中,集合跨越9项方法,每个方法都有至少5个度量。每个基线都是一个独立的实验管道,易于可重复使用和可伸缩的部件。我们的目标是提供具有新方法或应用的实验的即时出发点。此外,我们还提供模型检查点,实验输出为Python笔记本,以及用于比较结果的排行榜。代码在https://github.com/google/uncertainty-baselines。
translated by 谷歌翻译
虽然许多方法旨在通过突出突出特征来解释预测,但是这些解释服务的目标以及如何评估它们通常不合适。在这项工作中,我们介绍了一个框架,通过在训练教师模型的学生模型上授予学生模型的准确性增益来量化解释的价值。至关重要的是,培训期间学生可以使用解释,但在测试时间不可用。与先前的建议相比,我们的方法不太易于绘制,实现原则,自动,模型 - 无话会的归属。使用我们的框架,我们比较了许多归属方法,用于文本分类和问题应答,并观察不同学生模型架构和学习策略之间的定量差异(在中度到高度)。
translated by 谷歌翻译